Что такое токены в LLM?

Простое объяснение:

Представьте, что токены - это кусочки пазла, из которых состоит текст. Когда мы общаемся с большой языковой моделью (LLM), она разбивает наш текст на такие кусочки-токены.

"Привет, как дела?" может быть разбито на токены так:
["привет", ",", "как", "дела", "?"]

Почему это важно?

LLM читает текст именно токенами, а не отдельными буквами
Один токен может быть как одной буквой, так и целым словом
Чем больше токенов в тексте, тем больше времени нужно LLM на обработку
От количества токенов часто зависит стоимость использования LLM

Попробуйте написать текст и увидеть примерное количество токенов:

Примерное количество токенов: 0

Примечание: Это подсчёт токенов для модели, которую я использую в данном проекте. Если ваша LLM отличается от той, которую использую я, у неё также могут отличаться и методы токенизации, а соответственно и количество токенов в аналогичном тексте.